Neste projeto exploraremos o conjunto de dados sobre a qualidade dos vinhos tintos, onde analisaremos se as propriedades químicas influenciam na qualidade do vinho. Conjunto de dados está disponível para download nesse link e descrição das variáveis e como os dados foram coletados no nesse link.
Segue algumas informações básicas sobre o conjunto de dados.
## 'data.frame': 1599 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
x e quality que são do tipo inteiro.## X fixed.acidity volatile.acidity citric.acid
## Min. : 1.0 Min. : 4.60 Min. :0.1200 Min. :0.000
## 1st Qu.: 400.5 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090
## Median : 800.0 Median : 7.90 Median :0.5200 Median :0.260
## Mean : 800.0 Mean : 8.32 Mean :0.5278 Mean :0.271
## 3rd Qu.:1199.5 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420
## Max. :1599.0 Max. :15.90 Max. :1.5800 Max. :1.000
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.900 Min. :0.01200 Min. : 1.00
## 1st Qu.: 1.900 1st Qu.:0.07000 1st Qu.: 7.00
## Median : 2.200 Median :0.07900 Median :14.00
## Mean : 2.539 Mean :0.08747 Mean :15.87
## 3rd Qu.: 2.600 3rd Qu.:0.09000 3rd Qu.:21.00
## Max. :15.500 Max. :0.61100 Max. :72.00
## total.sulfur.dioxide density pH sulphates
## Min. : 6.00 Min. :0.9901 Min. :2.740 Min. :0.3300
## 1st Qu.: 22.00 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500
## Median : 38.00 Median :0.9968 Median :3.310 Median :0.6200
## Mean : 46.47 Mean :0.9967 Mean :3.311 Mean :0.6581
## 3rd Qu.: 62.00 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300
## Max. :289.00 Max. :1.0037 Max. :4.010 Max. :2.0000
## alcohol quality
## Min. : 8.40 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.20 Median :6.000
## Mean :10.42 Mean :5.636
## 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :14.90 Max. :8.000
Como nosso principal interesse é sobre a qualidade dos vinhos tintos, segue algumas estatísticas básicas sobre a qualidade.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.636 6.000 8.000
Descobrimos que a qualidade dos vinhos estão entre 3 e 8, onde a média é 5.636.
Para termos uma noção básica de como os dados estão distribuidos, segue abaixo histograma das 12 variáveis. Foi retirado a variável x por ser identificador único.
Como podemos verificar, intervalo da qualidade do vinho está entre 3 e 8. Valores com maior frequência está entre 5 e 6, com menor frequência com valor de 3, 4, 7 e 8. Por tanto dividi esses valores em 3 categorias, conforme abaixo:
Resumo do rating:
## ruim razoável bom
## 63 1319 217
Para calcular a soma de todos os acidos do vinho tinho, criei uma nova variável chamado total.acidity. Ondo o calculo é feito através da seguinte formula:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.270 7.827 8.720 9.118 10.070 17.050
fixed.acidity, volatile.acidity, sulfur.dioxide, sulphated e alcohol contêm cauda longa.density e pH são distribuições normais com poucas outliers.residual.sugar e chlorides têm outliers extremos.citric.acid contém uma grande quantidade de valores com zero.citric.acid com valores zero## [1] 132
Encontramos 132 registros com valores zero na variável citric.acid.
As variáveis residual.sugar e chlorides estão no tópico abaixo, pois além de transformar na escala do log10 e estarei limitando os valores superior e inferior.
Após conversão dos gráficos em log10, podemos verificar que eles têm uma distribuição normal com poucas outliers.
residual.sugar e chloridesAlém de converter na escala de log10, limitei os valores entre 5 a 95% dos valores encontrado para geração dos gráficos pois mesmo depois da transformação para log10 tinham ainda outliers.
Como esses 2 atributos estavam um pouco diferentes das demais variáveis, fiquei curioso qual o grau de correlação entre eles.
Segue correlação entre residual.sugar e chlorides :
##
## Pearson's product-moment correlation
##
## data: df$residual.sugar and df$chlorides
## t = 2.2257, df = 1597, p-value = 0.02617
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.006606405 0.104346223
## sample estimates:
## cor
## 0.05560954
Podemos concluir que o coeficiente de correlação entre as duas variáveis são bem fracas.
## 'data.frame': 1599 obs. of 15 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
## $ rating : Ord.factor w/ 3 levels "ruim"<"razoável"<..: 2 2 2 2 2 2 2 3 3 2 ...
## $ total.acidity : num 8.1 8.68 8.6 12.04 8.1 ...
Como estamos pesquisando sobre a qualidade do vinho tinto, então o atributo principal é a quality
Creio que os atributos residual.sugar, total.acidity e pH poderiam influenciar na qualidade final do vinho tinto.
Foram criados 2 novas variáveis:
rating que contém a categoria de qualidade (ruim, razoável e bom)total.acidity que é a soma de todos os ácidos no vinho tintoVerificamos que a variável citric.acid contém uma quantidade expressiva com valores zero. Além de transformações que fiz nas variáveis fixed.acidity, volatile.acidity, free.sulfur.dioxide, total.sulfur.dioxide, sulphates, alcohol, residual.sugar e chlorides no log10 e limitar os valores nas variáveis residual.sugar e chlorides para verificar as tendências desses atributos no histograma.
Para obter uma rápida visualização das variáveis que possam afetar os atributos quality e rating, gerei boxplots para cada uma.
quality## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.700 7.150 7.500 8.360 9.875 11.600
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.600 6.800 7.500 7.779 8.400 12.500
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.000 7.100 7.800 8.167 8.900 15.900
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.700 7.000 7.900 8.347 9.400 14.300
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.900 7.400 8.800 8.872 10.100 15.600
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.000 7.250 8.250 8.567 10.230 12.600
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4400 0.6475 0.8450 0.8845 1.0100 1.5800
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.230 0.530 0.670 0.694 0.870 1.130
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.180 0.460 0.580 0.577 0.670 1.330
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1600 0.3800 0.4900 0.4975 0.6000 1.0400
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3000 0.3700 0.4039 0.4850 0.9150
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2600 0.3350 0.3700 0.4233 0.4725 0.8500
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0050 0.0350 0.1710 0.3275 0.6600
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0300 0.0900 0.1742 0.2700 1.0000
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0900 0.2300 0.2437 0.3600 0.7900
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0900 0.2600 0.2738 0.4300 0.7800
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.3050 0.4000 0.3752 0.4900 0.7600
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0300 0.3025 0.4200 0.3911 0.5300 0.7200
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.200 1.875 2.100 2.635 3.100 5.700
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.300 1.900 2.100 2.694 2.800 12.900
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.200 1.900 2.200 2.529 2.600 15.500
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.900 1.900 2.200 2.477 2.500 15.400
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.200 2.000 2.300 2.721 2.750 8.900
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.400 1.800 2.100 2.578 2.600 6.400
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0610 0.0790 0.0905 0.1225 0.1430 0.2670
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.04500 0.06700 0.08000 0.09068 0.08900 0.61000
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.03900 0.07400 0.08100 0.09274 0.09400 0.61100
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.03400 0.06825 0.07800 0.08496 0.08800 0.41500
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01200 0.06200 0.07300 0.07659 0.08700 0.35800
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.04400 0.06200 0.07050 0.06844 0.07550 0.08600
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.0 5.0 6.0 11.0 14.5 34.0
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 6.00 11.00 12.26 15.00 41.00
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 9.00 15.00 16.98 23.00 68.00
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 8.00 14.00 15.71 21.00 72.00
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 6.00 11.00 14.05 18.00 54.00
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 6.00 7.50 13.28 16.50 42.00
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.0 12.5 15.0 24.9 42.5 49.0
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.00 14.00 26.00 36.25 49.00 119.00
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 26.00 47.00 56.51 84.00 155.00
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 23.00 35.00 40.87 54.00 165.00
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.00 17.50 27.00 35.02 43.00 289.00
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.00 16.00 21.50 33.44 43.00 88.00
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9947 0.9962 0.9976 0.9975 0.9988 1.0010
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9934 0.9956 0.9965 0.9965 0.9974 1.0010
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9926 0.9962 0.9970 0.9971 0.9979 1.0030
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9954 0.9966 0.9966 0.9979 1.0040
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9906 0.9948 0.9958 0.9961 0.9974 1.0030
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9908 0.9942 0.9949 0.9952 0.9972 0.9988
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.160 3.312 3.390 3.398 3.495 3.630
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.300 3.370 3.382 3.500 3.900
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.880 3.200 3.300 3.305 3.400 3.740
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.860 3.220 3.320 3.318 3.410 4.010
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.920 3.200 3.280 3.291 3.380 3.780
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.880 3.162 3.230 3.267 3.350 3.720
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4000 0.5125 0.5450 0.5700 0.6150 0.8600
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3300 0.4900 0.5600 0.5964 0.6000 2.0000
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.370 0.530 0.580 0.621 0.660 1.980
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4000 0.5800 0.6400 0.6753 0.7500 1.9500
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3900 0.6500 0.7400 0.7413 0.8300 1.3600
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.6300 0.6900 0.7400 0.7678 0.8200 1.1000
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.400 9.725 9.925 9.955 10.580 11.000
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.00 9.60 10.00 10.27 11.00 13.10
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.5 9.4 9.7 9.9 10.2 14.9
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.80 10.50 10.63 11.30 14.00
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.20 10.80 11.50 11.47 12.10 14.00
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.80 11.32 12.15 12.09 12.88 14.00
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.480 8.101 8.882 9.416 10.780 12.840
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.270 7.570 8.300 8.647 9.300 13.450
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.770 7.880 8.600 8.988 9.830 16.910
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.390 7.710 8.640 9.118 10.190 15.350
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.320 8.105 9.470 9.651 10.980 17.050
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.660 7.932 9.095 9.381 11.000 13.630
rating## $ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.600 6.800 7.500 7.871 8.400 12.500
##
## $razoável
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.700 7.100 7.800 8.254 9.100 15.900
##
## $bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.900 7.400 8.700 8.847 10.100 15.600
## $ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2300 0.5650 0.6800 0.7242 0.8825 1.5800
##
## $razoável
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1600 0.4100 0.5400 0.5386 0.6400 1.3300
##
## $bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3000 0.3700 0.4055 0.4900 0.9150
## $ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0200 0.0800 0.1737 0.2700 1.0000
##
## $razoável
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0900 0.2400 0.2583 0.4000 0.7900
##
## $bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.3000 0.4000 0.3765 0.4900 0.7600
## $ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.200 1.900 2.100 2.685 2.950 12.900
##
## $razoável
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.900 1.900 2.200 2.504 2.600 15.500
##
## $bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.200 2.000 2.300 2.709 2.700 8.900
## $ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.04500 0.06850 0.08000 0.09573 0.09450 0.61000
##
## $razoável
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.03400 0.07100 0.08000 0.08897 0.09100 0.61100
##
## $bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01200 0.06200 0.07300 0.07591 0.08500 0.35800
## $ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 5.00 9.00 12.06 15.50 41.00
##
## $razoável
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 8.00 14.00 16.37 22.00 72.00
##
## $bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 6.00 11.00 13.98 18.00 54.00
## $ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.00 13.50 26.00 34.44 48.00 119.00
##
## $razoável
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 24.00 40.00 48.95 65.00 165.00
##
## $bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.00 17.00 27.00 34.89 43.00 289.00
## $ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9934 0.9957 0.9966 0.9967 0.9977 1.0010
##
## $razoável
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9958 0.9968 0.9969 0.9979 1.0040
##
## $bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9906 0.9947 0.9957 0.9960 0.9974 1.0030
## $ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.300 3.380 3.384 3.500 3.900
##
## $razoável
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.860 3.210 3.310 3.311 3.400 4.010
##
## $bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.880 3.200 3.270 3.289 3.380 3.780
## $ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3300 0.4950 0.5600 0.5922 0.6000 2.0000
##
## $razoável
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3700 0.5400 0.6100 0.6473 0.7000 1.9800
##
## $bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3900 0.6500 0.7400 0.7435 0.8200 1.3600
## $ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.60 10.00 10.22 11.00 13.10
##
## $razoável
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.00 10.25 10.90 14.90
##
## $bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.20 10.80 11.60 11.52 12.20 14.00
## $ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.270 7.575 8.330 8.769 9.362 13.450
##
## $razoável
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.390 7.802 8.615 9.051 9.940 16.910
##
## $bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.320 8.100 9.470 9.629 10.980 17.050
Ao explorar cada ponto, verificamos que vinho tinto “bom” geralmente tem as seguintes tendências:
alchohol, citric.acid, fixed.acidity e sulphatesvolatile.acidity e pHresidual.sugar e sulfur.dioxide não mostram nenhum impacto dramático com a classificação da qualidade do vinho tinto.
Curiosamente parece que diferentes tipos de ácidos afetam diferentemente a qualidade do vinho, conforme a variável volatile.acidity seguiu o caminho inverso onde quanto menor a taxa a qualidade é melhor a qualidade.
Ao utilizar a função cor.test, calculo a correlação de cada um desses atributos em relação a variável quality:
## fixed.acidity volatile.acidity citric.acid
## 0.12405165 -0.39055778 0.22637251
## total.acidity log10(residual.sugar) log10(chlordies)
## 0.10375373 0.02353331 -0.17613996
## free.sulfur.dioxide total.sulfur.dioxide density
## -0.05065606 -0.18510029 -0.17491923
## pH log10(sulphates) alcohol
## -0.05773139 0.30864193 0.47616632
Parece que as seguintes variáveis têm altas taxas de correlações com a qualidade do vinho:
alcoholcitric.acidsulphates (log10)volatile.acidityVamos ver como essas variáveis citadas acima se comportam quando traçadas uma contra a outra em relação a qualidade.
Relacionamento bivariado mais fraco parace ser entre alcohol e citric.acid na qual a distribuição é mais uniforme.
E o relacionamento mais forte é entre citric.acid e volatile.acidity, onde teve uma correlação negativa.
Examinando as variáveis de acidez, vi fortes correlações entre elas:
##
## Pearson's product-moment correlation
##
## data: df$fixed.acidity and df$citric.acid
## t = 36.234, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.6438839 0.6977493
## sample estimates:
## cor
## 0.6717034
##
## Pearson's product-moment correlation
##
## data: df$volatile.acidity and df$citric.acid
## t = -26.489, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.5856550 -0.5174902
## sample estimates:
## cor
## -0.5524957
##
## Pearson's product-moment correlation
##
## data: log10(df$total.acidity) and df$pH
## t = -39.663, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.7283140 -0.6788653
## sample estimates:
## cor
## -0.7044435
Mais notável é o total.acidity correlacionar muito bem com o pH. Isso certamente é esperado, pois o pH é essencialmente uma medida de acidez. Uma questão interessante que podemos colocar usando o conhecimento básico de química, é perguntar quais outros componentes além dos ácidos o pH pode afetar. Podemos quantificar esta diferença construindo um modelo linear preditivo, para prever o pH com base em total.acidity e capturar a diferença de porcentagem como uma nova variável(pH.difference).
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.0813800 -0.0574600 -0.0414300 -0.0304500 0.0001078 0.0248700
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.080630 -0.038570 -0.008012 -0.010410 0.004476 0.171100
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.082930 -0.017270 0.002810 0.004951 0.025280 0.154900
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.1210000 -0.0199400 -0.0004283 -0.0008809 0.0165900 0.1546000
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.066340 -0.019650 -0.001442 -0.002093 0.011690 0.101500
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.040120 -0.017320 0.007486 0.011640 0.039700 0.075330
Mediana da nova variável ficou perto do zero na maioria dos casos. Vinhos com qualidade 3 apresentaram valores negativos, assim podemos interpretar que total.acidity não é um ótimo preditivo para pH. Provavelmente exista algum outro fator que afeta o pH do vinho.
Foram examinado 4 atributos que apresentavam alta correlação com a qualidade do vinho. Para melhor visualização da dispersão dos valores de qualidade, separei por categoria de “rating” com valores: ruim, razoável e bom. É claro que teor alto de citric.acid e baixo de volatile.acid contribuem para um bom vinho. Da mesma forma como tendem a ter altos porcentagem de sulphates e teor de alcohol. pH surpreendentemente teve pouco impacto no fator qualidade do vinho, em comparação com o alcohol que teve maior impacto. Mostrando assim um fator interessante sobre um bom vinho que depende do tipo de ácidos que estão presente na sua composição.
## ruim razoável bom
## 63 1319 217
A distribuição da qualidade do vinho tinto parece ser normal. 82.5% dos vinhos são classificados como 5 e 6 (qualidade “razoável”). Embora a escala de classificação esteja entre 0 e 10, não há vinhos com classificação 1, 2, 9 ou 10.
## $ruim
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.60 10.00 10.22 11.00 13.10
##
## $razoável
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.00 10.25 10.90 14.90
##
## $bom
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.20 10.80 11.60 11.52 12.20 14.00
Gráfico demonstra a relação do teor de alcohol na qualidade do vinho. Na maioria dos casos quanto maior o teor do alcohol, melhor a qualidade do vinho. Em média o vinho com qualidade “bom” tem 1.285 (% volume) a mais de teor de alcohol em comparação com os vinhos de qualiade “ruim” e razoável. Porém como mostram os intervalos e outliers, atributo alcohol por si só não produz vinho com qualidade “bom”, pois como podemos no gráfico acima têm alguns vinhos com qualidade “ruim” tem teor do alcohol maior que a qualidade “razoável” mas mesmo assim a sua classificação é pior.
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.700 7.150 7.500 8.360 9.875 11.600
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.600 6.800 7.500 7.779 8.400 12.500
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.000 7.100 7.800 8.167 8.900 15.900
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.700 7.000 7.900 8.347 9.400 14.300
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.900 7.400 8.800 8.872 10.100 15.600
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.000 7.250 8.250 8.567 10.230 12.600
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4400 0.6475 0.8450 0.8845 1.0100 1.5800
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.230 0.530 0.670 0.694 0.870 1.130
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.180 0.460 0.580 0.577 0.670 1.330
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1600 0.3800 0.4900 0.4975 0.6000 1.0400
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3000 0.3700 0.4039 0.4850 0.9150
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2600 0.3350 0.3700 0.4233 0.4725 0.8500
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0050 0.0350 0.1710 0.3275 0.6600
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0300 0.0900 0.1742 0.2700 1.0000
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0900 0.2300 0.2437 0.3600 0.7900
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0900 0.2600 0.2738 0.4300 0.7800
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.3050 0.4000 0.3752 0.4900 0.7600
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0300 0.3025 0.4200 0.3911 0.5300 0.7200
## $`3`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.160 3.312 3.390 3.398 3.495 3.630
##
## $`4`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.300 3.370 3.382 3.500 3.900
##
## $`5`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.880 3.200 3.300 3.305 3.400 3.740
##
## $`6`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.860 3.220 3.320 3.318 3.410 4.010
##
## $`7`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.920 3.200 3.280 3.291 3.380 3.780
##
## $`8`
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.880 3.162 3.230 3.267 3.350 3.720
Demonstração do efeito dos atributos ácidos e pH na qualidade do vinho. Vinhos com classificação mais alta, geralmente tem maior taxa de acidez e menor pH. Mas o atributo volatile.acidity não segue o mesmo fato dos outros ácido, quanto menor a taxa melhor a qualidade. Atributo citric.acid teve uma alta correlação com a qualidade do vinho, enquanto fixed.acidity teve menor impacto. Por exemplo os vinhos com citric.acid superior a 0.75 raramente são classificados como qualidade “bom”. 50% dos vinhos de qualidade “bom” tem um citric.acid relativamente alto que varia entre 0.3 e 0.49, enquanto que os vinhos de qualidade “razoável” e “ruim” têm menor quantidade de citric.acid.
Apesar de não beber vinho ou qualquer bebida alcoólica, decidi escolher esse tema para entender melhor como que é feito a classificação da vinho tinto. Dificuldade inicial foi não ter uma noção de quais atributos poderiam afetar na qualidade, pois não sabia se vinhos com maior teor de alcool, acidez ou adocicado é mais delicioso. Depois foi entender como que essas variáveis se equilibram para formar a qualidade do vinho final.
Através dessa análise de dados, consegui entre os muitos atributos identificar os principais fatores como alcohol, sulphates e acidez determinam a qualidade do vinho tinto. Esses atributos devem estar na lista de exigência para um bom vinho, caso contrário impactaria negativamente no resultado da qualidade. Concluimos também a correlação existente entre pH e a qualidade do vinho.
Existem poucos vinhos com classificação “ruim” ou “bom”. Poderíamos melhorar a qualidade de nossa análise, coletando mais dados e criando mais variáveis que possam contribuir para a analise da qualidade do vinho. Isso melhoraria a precisão dos modelos de previsão.
Seria interessante também coletar e dividir as classificações de dados entre as preferências do profissonal em degustação de vinhos e pessoas comuns. Assim poderiamos ver as diferenças e semelhanças entre cada classificação do vinho por especialista em vinho e pessoa comum, melhorando na precisão de quais atributos afetam na qualidade do vinho.
Para uma pesquisa futura seria interessante estudar sobre os atributos residual.sugar e sulfur.dioxide, pois continham muitos outliers e alta relação com classificação “ruim” do vinho.